1
Definindo Relacionamentos por meio de Distribuições Condicionais
MATH003Lesson 10
00:00
Bem-vindo a uma mudança de paradigma na estatística. Estamos indo além da intuição simples de "linhas de tendência" para um Quadro Distribucional. Aqui, definimos um relacionamento não apenas pelo coeficiente de correlação, mas como qualquer mudança no comportamento probabilístico de uma variável resposta $Y$ quando o preditor $X$ é alterado.

Definição 10.1.1: A Ligação Estatística

Duas variáveis $X$ e $Y$ são consideradas relacionadas se houver qualquer mudança na distribuição condicional de $Y$, dado $X = x$, à medida que $x$ muda. Por outro lado, um estado de "sem relação" é matematicamente equivalente à independência entre $X$ e $Y$.

Equivalência Lógica

As variáveis $X$ e $Y$ são independentes se, e somente se, $f(y|x) = f(y)$ para todos os valores de $x$. Isso implica que a função de frequência relativa conjunta pode ser fatorada como:

$$f(x, y) = f(x)f(y)$$

Portanto, testar uma relação é fundamentalmente um teste de Independência.

Mecanismos de Mudança

Um relacionamento é identificado por qualquer deslocamento na função de densidade condicional (como mostrado na Figura 10.1.1). Isso inclui:

  • Deslocamento da Média: O valor esperado $E(Y|X)$ muda (o foco mais comum).
  • Deslocamento da Variância: A dispersão ou incerteza de $Y$ depende de $X$ (heterocedasticidade).
  • Mudança na Forma: A distribuição geral se transforma (por exemplo, de simétrica para assimétrica).

Estabelecendo Causalidade por meio do Design

Uma relação estatística não implica causalidade. Para afirmar que $X causa $Y$, devemos levar em conta as variáveis de confusão por meio do Design dos Experimentos:

  • Tratamentos de Controle: Fornece uma base de comparação.
  • Efeito Placebo: Mitigação da melhoria percebida por meio de tratamentos inativos.
  • Cegueira: Usando experimentos cegos (receptores inconscientes) e experimentos duplamente cegos (receptores e pesquisadores inconscientes) para eliminar viés.
  • Bloqueio: Como visto em Exemplo 10.1.7, usamos variáveis de bloqueio ($W$, como fertilidade do solo) para garantir que a relação entre o tipo de trigo ($X$) e o rendimento ($Y$) não seja confundida por condições pré-existentes.
🎯 Estimação Matemática Central
Estimamos essas ligações usando Verossimilhança Condicional funções. Para dados discretos com contagens $f_{ij}$:
$$L = \prod_{i=1}^a \prod_{j=1}^b (\theta_{j|X=i})^{f_{ij}}$$ Erro Padrão: $SE = \sqrt{\frac{\hat{\theta}_{ij}(1 - \hat{\theta}_{ij})}{n}}$